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摘要 : 【 目的 ] 针对 现 有 预警 体系 多 以 企业 自身 和 监管 部 门 为 主体 、 忽 视 网 络 与 情 ， 导 致 预警 力度 不 强 、 缺 乏 透 


明度 及 敏感 性 、 使 突 发 性 安全 问题 时 有 发 生 且 无 法 得 到 及 时 处 理 的 现状 ， 提 出 一 种 新 的 舆情 预警 模型 。[ 方法 】 
通过 元 搜索 技术 挖掘 与 情 信 息 , 增加 基准 偏 移 值 优化 情感 特征 项 倾向 性 权重 ， 添 加 修正 因子 以 改进 潜在 语义 分 


析 和 支持 向 量 机 (LSA+SVM) 算 法 , 构建 与 情 分 类 预警 模型 。[ 结果 】 以 多 组 突 发 性 安全 事件 为 例 , 应 用 Matlab 


进行 仿真 实验 。 结 果 证 明 该 盟 情 预警 模型 切实 可 行 , 反应 迅速 , 在 语义 维度 为 10 时 准确 率 可 达 85.75%。[【 局 限 ] 


此 方法 对 于 能 引起 关注 和 讨论 的 安全 事件 更 加 有 效 。 


关键 词 : 潜在 语义 分 析 支持 向 量 机 ”与 情 预警 
分 类 号 : G203 


[ 结论 ] 改进 算法 适用 于 与 情 预警 ,可 为 企业 和 监管 部 门 
根据 分 类 结果 及 时 采取 有 效 的 预警 措施 提供 合理 化 建议 。 
情感 倾向 性 分 析 
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网 络 与 情 具 有 传播 速度 快 、 渠 道 多 和 范围 广 等 特 
点 ， 其 针对 热点 事件 和 突 发 事件 的 传播 、 扩 散 以 及 发 
酵 对 于 企业 的 决策 及 管理 起 到 重要 作用 。 然 而 ， 奥 情 
信息 纷繁 杂乱 ， 具 有 强烈 的 情感 色彩 和 干扰 噪声 ， 甚 
至 可 能 威胁 到 企业 的 生存 与 发 展 。 因 此 ,如 何 妥 善 利用 
网 络 与 情 , 对 企业 相关 的 与 情 信息 进行 及 时 的 分 类 预 
警 并 采取 措施 理应 受到 企业 及 学 者 的 重点 关注 。 

在 与 情 预 警方 面 ， 国 内 外 学 者 开展 了 大 量 的 研 
究 。 吴鹏 等 中 通过 Agent 建 模 ,构建 了 网 络 群 体 行为 模 
型 。Li 等 中 以 人 工 神经 网 络 为 对 象 预测 产品 产量 安全 。 
王 兰 成 中 分 析 了 与 情 情报 的 功能 , 设计 了 针对 突 发 事 
件 应 急 处 置 的 奥 情 情报 支援 系统 架构 。Papetti 等 中 提 


m 


出 一 个 基于 多 因素 和 多 数据 源 熏 情 的 预警 模型 , 通过 
多 个 案例 进行 验证 , 新 的 预警 模型 在 减少 预警 时 间 和 
源 数据 的 条 件 下 , 依然 可 以 保证 预警 信息 的 准确 性 。 
董 凯 欣 等 外 通过 分 析 角 色 指 标 和 子 群 挖掘 意见 领袖 ， 
对 姐 情 机 制 提出 建议 。 陈 福 集 等 外 通过 建立 意见 交互 
机 制 有 效 预 测 与 情事 件 发 展 趋势 。 

综 上 所 述 , 大 多 数 与 情 预 警 研 究 是 在 整体 层面 对 
预警 措施 进行 建 模 和 预测 ， 然 而, 情感 特征 词 的 分 布 
较 整个 模型 来 说 不 够 均衡 , 日 语义 维度 复杂 ， 因 此 需 
要 从 优化 语义 维度 和 速度 的 视角 , 深入 研究 更 加 精准 
的 分 类 方法 。 本 文通 过 改进 潜在 语义 分 析 (Latent 
Semantic Analysis, LSA) 和 支持 向 量 机 (Support Vector 
Machine，SVM) 算 法 建立 与 情 分 类 预警 模型 ， 提 高 倾 
向 性 预测 的 准确 性 , 改善 分 类 的 效率 及 与 情 状 况 感 知 ， 


通讯 作者 : B4, ORCID: 0000-2347-7112-1342, E-mail: lvdelixx@126.com。 
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Data Analysis and Knowledge Discovery 


ChinaXiv 合 作 期 刊 


研究 文 


111v1 


p) 


^ 


|.02 


4 


E 


0171 


) 


à f) 
EP. 


uv 


v 
J 


lina 


» 


( 


QJ 


以 确保 企业 在 风险 进一步 扩大 之 前 采取 积极 有 效 措 
施 , 同时 根据 熏 情 反馈 进一步 解决 自身 问题 , 创新 产 
品 , 适应 市 场 要 求 。 


2 舆情 分 类 预警 模型 构建 


网 络 与 情 除了 在 传播 上 具有 巨大 优势 之 外 , 还 包 
含 以 下 4 点 较 特殊 的 性 质 : 

(1) 受 国 家 政策 法 规 影响 较 大 。 国 家 在 控制 、 检 
验 和 管理 等 各 个 方面 的 安全 标准 都 随 着 安全 事件 的 发 
生 及 技术 的 进步 实时 更 新 , 这 是 企业 预警 需要 着 重 考 
虑 的 因素 之 一 。 

Q) 突 发 性 较 强 ,具有 组 时 性 ,发酵 时 间 较 长 。 安 
全 事件 往往 由 突 发 事件 引起 ,并 以 极 快 的 速度 传播 ， 
吸引 大 量 的 关注 度 。 安 全 事件 往往 会 牵涉 到 企业 的 生 
产 管 理 制度 、 行 业 的 检验 制度 等 , 会 长 时 间 地 传播 、 
发 醇和 沉淀 。 

(3) 受众 关注 度 广 , 履 盖 面 较 强 。 由 于 网 络 内 容 与 
日 常生 活 息息相关 且 涉 及 到 每 个 个 体 的 安全 , 大 众 倾 
向 于 投入 更 多 的 关注 , 直至 事件 解决 。 

(4) 对 企业 的 影响 及 打击 较 大 。 突 发 性 安全 事件 对 
于 企业 的 打击 往往 是 致命 的 ,如 “霸王 致癌 "风波 “三 聚 


2.2” 与 情 分 类 情感 特征 词 权 重 确定 及 改进 

选取 安全 事件 相关 的 热点 关键 词 ,利用 开源 工具 
Nutch 疏 虫 进行 与 情 语 料 挖掘 ， 得 到 恤 情 的 相关 URL 
列表 。 结 合 HowNet 的 情感 分 析 词语 集 词典 中 的 相关 
标准 , 提取 情感 倾向 性 特征 词 ,以 形容 词 副词 和 名 词 
为 主 , 向 量化 情感 特征 项 文本 并 按 以 下 格式 存储 : 

(a,T, link,t,,r,W ) 

Re, a, 代表 奥 情 分 类 的 情感 特征 项 ;7 代表 获 
取 特 征 项 的 时 间 ; 万 代表 获取 该 特征 项 的 相关 文本 发 
布 时 间 ; 7 为 二 值 型 字段 代表 该 URL 是 否 被 转载 ; W 
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氰 胺 ”事件 ， 因 此 企业 应 倾注 更 多 资源 在 危机 预警 上 。 

根据 以 上 特质 ,与 情 分 类 预警 模型 需要 尽 可 能 降 
低 鳞 情 倾 向 性 的 语义 维度 ， 以 便 企 业 能 够 在 安全 事件 
发 生 的 初级 阶段 迅速 地 捕捉 与 情 , 还 需要 优异 的 组 合 
和 分 类 能 力 ， 及 时 对 事件 评级 并 准确 判定 其 倾向 性 。 
LSA 可 以 在 文本 分 析 中 消除 同义词 和 多 义 词 造成 的 偏 
差 ， 获 得 更 准确 的 文本 向 量 , 同时 简化 文本 向 量 , 提 
高 计算 效率 ; SVM 作为 泛 化 能 力 优异 的 分 类 器 被 广 为 
应 用 , 并 能 够 推广 应 用 到 函数 拟 合 等 其 他 机 器 学 习 问 
题 中 5 9。 因此 本 文选 择 LSA 和 SVM 算法 组 合 来 满足 
分 类 预警 的 要 求 ， 并 加 以 适当 的 改进 , 使 其 更 符合 与 
情 主 体 的 特征 。 与 情 分 类 预警 模型 的 构建 主要 包括 以 
下 几 个 步骤: 首先 进行 与 情 分 类 预警 流程 分 析 ; 其 次 
确定 和 修正 情感 特征 词 权 重 , 改进 LSA+SVM 算法 ; 
最 后 进行 算法 模型 的 实现 。 
21 HADMA mE 

与 情 分 类 预警 流程 主要 分 为 信息 抓 取 、 倾 向 性 判 
定 和 与 情 分 类 三 个 环节 。 信 息 抓 取 利用 元 搜索 技术 和 


Nutch 疏 虫 , 对 抓 取 的 数据 进行 简单 的 降 噪 、 清 洗 及 


分 词 处 理 , 提取 情感 特征 词 。 本 研究 重点 在 于 倾向 性 
判定 及 分 类 。 和 与 情 分 类 预警 流程 如 图 1 所 示 。 
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表示 该 特征 项 来 源 网 页 的 重要 性 权 值 。 当 7 为 “是 ”时 ， 
W 取 该 情感 特征 项 的 权 值 。 考虑 到 信息 来 源 的 影响 程 
度 和 信息 的 语义 倾向 性 对 相关 企业 造成 的 后 果 , 在 极 
大 程度 上 会 影响 相关 与 情 特 征 项 的 权重 。 设 出 现在 此 
熏 情 文本 向 量 中 情感 特征 项 的 重要 程度 为 idfa "1。 
fidf — tfj, x idf, 
HP, af, 表示 情感 特征 项 a; 出 现 频率 。 
ni 
ff = N, 
Hp, ny 表示 特征 项 w 出现 次 数 ，tfi, 需要 结合 


在 整个 文本 向 量 中 出 现 的 特征 项 总 量 N, 来 计算 。 
idf, 表示 该 情感 特征 项 a 的 逆 文 档 频率 ， 即 在 整 

篇 文章 中 出 现 较 少 但 特征 明显 存在 的 词汇 ,因此 要 计 

算 特 征 项 a 数目 的 倒数 , 选取 该 值 的 对 数 来 计算 : 


idf, = log P. 
D 


AI TEPELSCRS ES SCA B, KAPA, du 
及 较 多 ,情感 倾向 性 更 为 明显 ， 导 致 特征 项 的 权重 值 
对 长 文本 更 加 偏 祖 , 造成 log KANE, 失去 对 判断 的 
影响 。 同 时 ,安全 事件 中 普遍 用 包含 语意 和 语 态 的 经 
验 系数 来 突出 重要 特征 项 ， 国 家 政策 和 法 规 的 临时 发 
布 或 改进 会 对 相关 行业 造成 显著 影响 。 由 此 ,为 解决 
log 函数 为 零 的 问题 将 其 值 增加 0.01， 为 临时 法 规 政 策 
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的 发 布 及 时 改进 主权 重 值 ， 添 加 基准 偏 移 值 ofset H", 
从 而 得 到 舆情 分 类 情感 特征 项 权重 值 求 解 公式 为 
tf (tsd)) log(N/ df (t,) +0.01) 


;* offset 
Br tonc ye) + oov] 


通过 与 情 分 类 情感 特征 项 权重 公式 对 向 量化 文本 
的 权重 值 进行 求解 并 储存 ， 以 便于 下 一 步 对 向 量 空间 
化 分 类 。 
2.3 ”舆情 分 类 情感 特征 词 空间 向 量化 及 分 类 

舆情 分 类 的 情感 特征 词 以 单一 文本 向 量 储存 ,不 


属于 同一 个 概念 空间 , 空间 维度 太 高 ， 需 要 降 维 ， 以 
便 进 行 组 合 及 分 类 。 基 于 改进 LSA+SVM 算法 的 情感 
特征 词 分 类 方法 基本 流程 如 图 2 所 示 。 


向 


量 
空间 化 


一 TF-IDF 
文本 预 处 理 


图 2 慰 情 分 类 情感 特征 词 分 类 流程 


其 中 , 文本 预 处 理 即 权重 值 计 算 和 改进 的 过 程 。 
LSA 通过 奇异 值 分 解 将 与 情 分 类 文本 分 割 成 不 同 局 部 
特征 空间 ,避免 了 一 词 多 意 和 一 意 多 词 等 噪声 项 的 干 
扰 , 使 与 情 情 感 特征 词 所 表达 的 含义 更 加 明确 且 更 易 
被 感知 。 分 解 已 经 向 量化 的 与 情 特征 词 空间 向 量 ， 即 
以 mxn 的 和 矩阵 格式 储存 : 

A= (85), 

对 情感 特征 项 矩阵 进行 初步 处 理 ,如果 多 个 与 情 
情感 特征 词 属于 同义词 , 语义 相关 度 较 高 ， 则 将 其 划 
分 为 同一 类 别 ; 相对 来 说 , 不 同类 别 的 特征 词 出 现 同 
义 的 概率 就 会 较 低 。 由 此 , 将 矩阵 4 分 解 为 多 个 不 同 
类 别 的 矩阵 集合 的 组 合 形态 ,如 下 : 

A-USV? 
Hep, UAV dy lé A' A 的 左右 奇异 向 量 矩 


Ve, IA S — (8, B5. B.) 为 矩阵 4 的 奇异 值 矩 阵 ， 
满足 —B, 2-20.) 54B f Singuar 
Value Decompositon, SVD)XI 3&4 USV 空间 实施 压 
缩 处 理 ， 获 得 k FRIERE, 形式 如 下 : 
A, -U,S,.V/ 
其 具体 分 解 过 程 如 图 3 所 示 。 S, 表示 分 解 后 的 
基本 奇异 值 矩 阵 并 已 按 其 语义 相关 性 分 解 为 多 局 部 
EE, 
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特征 词 相似 度 关系 通过 和 矩阵 A, 行 向 量 之 间 的 内 

积 A, AL 来 计算 : 
A, A; 7 (U, S, VEV, S V) = (U,S; V, ) 
zz (U,S, XU,S, ) 二 SS 

计算 得 到 的 ,S$S7 表示 第 i 、7 行 的 内 积 关系 , 反映 
出 两 个 向 量 之 间 的 异同 ,表示 降 维 后 的 维 数 。 得 到 新 
的 文本 向 量 , 将 该 文本 向 量 送 至 SVM 分 类 模块 按照 
相关 性 分 类 。 
2.4 舆情 分 类 的 LSA+SVM 算法 改进 

突 发 性 安全 事件 发 酵 期 长 、 受 众 广 以 及 对 企业 信 
誉 影响 较 大 , 普通 的 分 类 器 难以 判定 其 情感 倾向 和 危 
险 程 度 , 需要 在 其 特征 词 局 部 和 矩阵 中 添加 修正 因子 
O, "1, 修正 因子 主要 以 在 该 局 部 特征 向 量 中 发 现 情 
感 词 a, 和 程度 副词 a, 同时 出 现 作为 基准 , 将 其 权重 
相 乘 ， 所 得 值 作为 矩阵 严重 程度 的 优先 判断 标准 。 计 
算 方法 为 : 


Ou =W, xW, 
J A, - U,S,V; P S, 以 修正 因子 O, 和 奇异 值 分 
解 后 得 到 的 局 部 矩阵 重新 排列 ， 同 时 ,根据 安全 特征 
词 的 权重 值 , 加 入 基准 偏 移 值 , 使 其 原 排列 方式 和 趋 
势 产 生 偏差 。 对 几 种 奇异 值 的 线性 关系 进行 模拟 , 模 
拟 为 一 条 具有 相关 性 的 回归 跳跃 曲线 ， 如 图 4 所 示 。 


(a) 正 相关 跳跃 曲线 


N 


(b) 负 相 关 跳 跃 曲 
图 4 修正 后 的 奇异 值 相关 性 跳跃 曲线 


当 O, > 0 时 , 相关 性 跳跃 曲线 如 图 4(a) 所 示 , 该 
与 情 分 类 局 部 抢 阵 的 正面 意义 较 强 ,一 般 出 现在 对 该 
事件 持 乐 观 态度 甚至 有 助 于 企业 品牌 形象 的 评论 或 文 
章 中 。 当 O, =0 时， 曲线 无 明显 跳跃 性 ,一般 在 横 轴 
附近 波动 , 则 该 局 部 矩阵 的 倾向 性 趋 近 于 中 立 。 此 类 
评论 更 趋 近 于 叙述 事实 , 不 包含 明显 的 批判 或 者 支持 
行为 。 当 O, <0 时 , 相关 性 跳跃 曲线 如 图 4(b) 所 示 , 该 
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局 部 矩阵 的 负面 意义 较 强 ,说 明 该 文 对 该 事件 反应 强 
烈 ， 对 企业 有 明显 的 批判 态度 。 其 中 O, 值 越 接近 1 或 
-1， 则 该 特征 词 情感 倾向 性 越 严重 。 
2.5 改进 LSA+SVM 算法 实现 过 程 
(1). 训练 算法 实现 
选取 大 量 和 舆情 分 类 训练 文本 对 改进 LSA+SVM 算 
法 进行 训练 , 形成 标准 的 舆情 分 类 预警 参数 模型 ， 得 
FJa, B, x 即 惩罚 函数 系数 、 线 性 最 大 间 除 、 核 函数 系 
数 三 个 基本 参数 ,训练 算法 具体 过 程 [" 如 下 。 
输入 : 特征 词 向 量 集合 4={a,az，…an} . HORAS E offset 
输出 : 分 类 参数 模型 M -(a.p.r) 
Fori=1:m,j=1:n 
Wi, j = tfidf; j * offset 
A=[tfi, j lmen * Oai 
SVD 


4 =[U] n x[S] x[V].,,, —— =[U] x[S] < lexn 


x, —H , M - (a. B. xj 


(2) 测试 算法 实现 
测试 算法 结合 参数 模型 和 SVM 分 类 器 对 新 的 特 
征 项 文本 进行 情感 倾向 性 分 类 , 先 根据 修正 因子 的 正 
负 性 分 为 两 个 层次 , 再 依靠 权重 划分 成 特 重 与 情 (S 
级 )、 重 度 与 情 (A 级 )、 中 度 与 情 (B W. HENC 
级 ) 和 需要 关注 (D 级 )5 个 等 级 , 将 正 向 与 情 纳 入 到 企 
业 反 馈 信息 和 创新 信息 中 记 作 (P 级 )" ,测试 算法 过 程 
如 下 。 
输入 : 待 分 类 测试 特征 词 集合 4 ={a1,43,…a,} 、 基 准 偏 移 值 
offset 
输出 : 分 类 结果 Tab = {5, A, B,C, D} 
Fori=1:m,j=1:n 
Uf; j = tfidf, j * offset 
A, = [hj men * Oa 
A, = |U],,, « [5]. Pn S A - [0], Sla] 


mx. rx x m x kxn 


SVM (a.p, y] 


X; > Tab = (S, A,B,C, D, P}} 

根据 基准 偏 移 值 和 修正 因子 的 修正 以 及 大 量 文本 

训练 ， 可 以 让 该 模型 更 加 准确 高 效 地 对 实时 安全 事件 

实施 危机 情况 进行 判定 ， 并 将 判定 结果 及 时 反馈 给 企 
Xy, 达到 预警 目的 。 


3 ”与 情 分 类 预警 实现 与 仿真 


为 确保 幅 情 分 类 更 为 准确 ， 以 三 类 不 同 领域 的 突 
发 性 安全 事件 来 讨论 LSA+SVM 算法 的 现实 应 用 , 分 


201711.02111v1 


" 
E 


chinaXiv 


别 是 食品 安全 为 代表 的 蒙牛 黄 曲 霉 素 事件 (事件 一 )、 

互联 网 用 户 安全 为 代表 的 百度 “莆田 系 * 事 件 (事件 二 ) 
和 生产 安全 为 代表 的 天 津 滨海 化 工厂 泄露 事件 (事件 
三 ) 作 为 分 析 对 象 。 首先 根据 僵 情 类 别 选取 “ 热 词 + 与 情 
词汇 ”格式 , 依据 元 搜索 技术 使 用 Python 在 各 个 搜索 
引擎 热点 新 闻 中 设计 爬虫 , 挖掘 该 系列 字段 ， 获 取 
900 余 篇 事件 相关 文章 及 评论 URL 列表 ,如 图 5 所 示 。 


Emu. 1 | Te 已 提取 到 23 个 vRL (已 去 重 ) 


http://global.bing. com/search?q-Se9WbbXO4X3eDRObXb2 Neg NO cXO A 
http: //money-hzrb dance hou. com. en/ systen/2011/12/2T/01168T! 
http://js. people. en/htn 120114 12/21/81847. html 
http://js. people. com. .en/list2. php?news class-: 

http://js. people, com. ud phonons class-Z&amp;news ch 
http://finance ume/2011122T/448T85. shtml 
http://biz.xinmin. A es html 
http://zt-hzrb. hangz .cn/s am 2011/12/26/011605539 


EELDE >>> 
FASFBACA4SBOTES3C A 


v 
> 


m ARAA lpia. 


im. 

. con/news/2011-12/2T/content, 244195 
SAVAIS 221936-2T90424325. h 

pif. v acBy24houryshi shang. htnl 

ims ee html 

on. en/GB/index. html. 

om GB/ TB 

ous su eystan Oll P12 /0148128 
fali ak nkTd-521839&anp ;CLCTD-80- 


4344 
i icros link/7LinkID-61T29T 
http: Jie RES link/?LinkID-246338&amp ; CLCID-80- 


图 5 URL 获取 列表 


对 抓 取 的 文档 进行 简单 的 去 重 降 噪 , 选取 中 国 科 
学 院 计算 技术 研究 所 ICTCLAS 分 词 系统 以 及 
LibSVM 作为 仿真 软件 , 经 权重 计算 及 改进 
LSA+SVM 算法 , 通过 交叉 验证 来 获取 基础 的 分 类 参 
数 模型 ,算法 实现 基于 Windows7 操作 系统 , 仿真 软件 
为 Matlab2012b， 训 练 中 选取 径 向 基 (Radius Basis 
Function，RBF) 核 函数 利用 交叉 检验 的 方法 来 确定 
优 的 参数 模型 及 分 类 模型 。 

训练 所 得 核 函 数 系数 约 为 0.431, 惩罚 函数 系数 
为 0.424462, 得 到 倾向 性 为 负 问 的 有 效 特征 向 量 共 
324 个 ,倾向 性 为 正 向 或 中 性 的 有 效 特征 向 量 共 198 
个 。 根 据 最 终 分 类 跳跃 曲线 的 运动 情况 可 发 现 跳 跃 曲 
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图 6 所 示 。 
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事件 一 事件 二 事件 三 
图 6 语义 维度 对 分 类 结果 准确 率 影 响 


可 知 ， 当 k-10 时 表现 最 好 , 准确 率 可 达 87.25%, 
可 以 高 效 体现 出 文本 的 相关 特性 。 维 度 太 低 易 导 致 结 
果 偏 差 . 而 维度 太 高 时 易 发 生 语义 混乱 导致 分 级 不 够 
准确 上 5。 分 类 算法 实现 结果 如 图 7 所 示 。 


权重 排序 特征 词 


百度 “莆田 系 ” 一 滨海 化 工厂 泄露 


图 7 算法 实现 结果 


将 最 终 得 到 的 有 效 文档 及 评论 按照 修正 因子 的 值 
进行 分 类 , 正面 僵 情 都 可 归 为 P 级 ,负面 僵 情 即 需要 
引起 警报 的 S, A, B, C, D 这 5 个 等 级 在 (-1, 0) 区 间 上 等 
距离 划分 , 由 此 得 到 Se[-1, -0.8], A€[-0.8, -0.6], 
B € [-0.6, -0.4], C E [-0.4, -0, 2, DE[-0.2.0)。 但 考虑 
到 (0，0.1) 区 间 虽 属 正面 与 情 但 倾向 性 不 明显 ， 所 以 将 
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线 更 加 趋 近 于 负 相 关 ,与 情 倾 向 为 负 。 对 分 类 模型 在 
不 同 的 语义 维度 下 实施 对 比 实验 ， 以 在 不 同 参数 下 文 
档 倾 向 性 的 准确 率 作为 衡量 其 性 能 的 基本 指标 ; 
C=(P, +Ny)/(P+N) 
其 中 ,，P 代表 选取 的 正面 文档 总 数 ， 记 代表 选取 
时 为 正面 文档 且 分 类 后 O, > 0，, 仍 为 正面 文档 ; 类 似 
地 ，N 表示 选取 时 为 负面 文档 Ny 代表 分 类 后 仍 为 


该 区 间 划 分 到 D( 需 要 关注 ) 中 0 除去 重复 性 文档 和 
训练 文档 , 得 到 上 述 三 个 突 发 性 安全 事件 正 负 面 文档 
占 比 如 表 1 所 示 。 


Re 1 三 个 突 发 性 安全 事件 正 负面 文档 比率 


发 性 安全 事件 负面 文档 ”中 性 文档 ”正面 文档 


负面 文档 的 文档 数量 。 随 机 选取 三 组 语义 维度 的 不 后 
取 值 ， 即 分 别 为 5, 10, 15 来 进行 准确 率 计算 , 结果 如 


占 比 (%) 占 比 (%) 占 比 (%) 
百度 “莆田 系 ” 事 件 59.8 6.7 33.5 
滨海 化 工厂 泄露 事件 65.5 27.3 7.2 
蒙牛 黄 曲霉 素 事件 76.3 9.8 13.9 
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通过 正 负 文 档 的 比率 , 可 以 初步 看 出 不 同 突 发 性 
安全 事件 的 舆情 倾向 性 , 在 此 选取 负面 文档 及 中 性 文 
档 ， 进 一 步 归 纳 不 同等 级 的 与 情 文档 数量 ， 以 判别 各 
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突 发 性 安全 事件 的 紧急 程度 ， 从 而 判断 企业 应 采取 何 
种 措施 。 
等 级 分 类 及 主要 与 情 词汇 如 表 2 所 示 。 


A2 三 个 突 发 性 安全 事件 等 级 分 类 及 主要 与 情 词 汇 


突 发 性 安全 事件 EARR IR] E: [EE 区 间 数量 《是 否 含 基准 偏 移 值 
S [-1, -0.8) 31 Y 
作恶 ; 丑闻 ; 互相 勾结 ; 虚假 宣传 ; 垂死 挣扎 ; E 入 [-0.8, -0.6) 29 N 
百度 “莆田 系 ” ， 疗 伦理 缺失 ; 无 底线 ; 贪心 ; 造假 系 ; 谋 财 害 命 ; ü [-0.6, -0.4) 23 N 
事件 毒瘤 ; EE, 脐 脏 的 广告 手段 ; 不 道德 ; 放纵 ; Wh MO 
ZWEI 不 作为 C [-0.4, -0.2) 13 N 
D [-0.2, 0.1) 7 N 
S [-1, -0.8) 41 Y 
毒害 百姓 ; 强烈 抗议 ; 生命 财产 得 不 到 保护 ; 气 A [-0.8, -0.6) 27 Y 
滨海 化 工厂 RH m, 恶心 头晕 ; 告状 无 门 ; 不 顾 百 姓 死活 ; ü [-0.6, 0.4) 25 N 
泄露 事件 隐患 巨大 ; 污染 ; 寝食 难 安 ; 惨烈 ; 极度 危险 ; Ju T 
Wit WEZI C [-0.4, -0.2) 8 N 
D [-0.2, 0.1) 20 N 
S [-1, -0.8) 37 Y 
Lw, 毫 无 原则 ; 显然 不 足以 说 服 公 众 ; 严 入 [-0.8, -0.6) 35 Y 
蒙牛 黄 曲 重 威 胁 生 命 安全 ; 空头 文件 ; 一 纸 空 文 ; 吃惊 ; 
GRF 而 再 再 而 三 ; 犯错 成 本 实在 太 低 ; 重大 缺陷 ;了 0608 30 N 
不 能 用 道歉 来 消除 ; 最 强化 学 致癌 物 ; 信心 脆弱 C [-0.4, -0.2) 21 N 
D [-0.2, 0.1) 15 N 


(X: 表 中 “Y” 表 示 “ 是 ”， NRR”, ) 


由 表 2 可 知 , 此 三 类 突 发 性 安全 事件 的 舆情 等 级 
BRF S KRESE, 其 中 以 滨海 化 工厂 爆炸 泄露 事 
件 最 为 严重 ,都 需要 企业 或 监管 部 门 高 度 重视 并 及 时 
人 处理 。 


4 ”结论 与 建议 


针对 目前 突 发 性 安全 事件 预警 范围 狭窄 、 透 明 性 
不 强 、 反 应 不 够 及 时 等 问题 ， 本文 将 外 部 性 主体 考虑 
在 内 ,进行 网 络 与 情 的 预警 研究 。 在 对 热门 事件 及 关 
键 词 进行 实时 挖掘 的 基础 上 , 结合 熏 情 分 类 的 相关 特 
TE, 添加 权重 的 基准 偏 移 值 , 改进 LSA+SVM 算法 ， 
通过 修正 因子 的 正 负 值 进行 与 情 倾 向 性 判定 及 与 情 预 
警 分 类 。 

(1) 当 修 正 因 子 为 负 且 范围 在 [-1，-0.4) 时 , 根据 
权重 排序 确定 其 为 S、A、B 三 个 等 级 ,代表 该 僵 情 来 
源 负 面 倾向 明显 ， 影 响 较 大 ， 需 企业 及 时 介入 解决 ; 

(2) 当 修正 因子 范围 在 上 0.4，0.1) 时 ， 确 定 该 僵 情 
来 源 属 于 C. D 级 , 代表 该 与 情 属于 中 性 与 情 ， 需 要 保 
持 观 察 ; 
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(3) 当 修 正 因 子 范 围 在 [0.1，1] 时 , 则 判定 其 为 P 
级 与 情 ， 属 于 正面 僵 情 ,有 助 于 维持 企业 积极 形象 。 

利用 LibSVM 和 Matlab 进行 仿真 和 准确 率 计 算 ， 
对 算法 有 效 性 进行 了 验证 ， 其 结果 可 以 体现 舆情 文本 
的 倾向 性 ， 能 够 为 企业 提供 准确 的 警报 信息 。 最 后 ， 对 
企业 应 采取 的 措施 提出 以 下 建议 : 

S ROER: 高 度 重视 和 及 时 应 对 。 企业 需要 
立刻 派 遗 专 业 的 公关 团队 ,迅速 锁定 舆情 源头 ， 及 时 
进行 产品 召回 和 赔偿 处 理 ， 尽 可 能 减少 负面 影响 对 企 
业 形 象 的 危害 , 树立 有 担当 ， 有 责任 的 企业 形象 。 

A S GE BEER fS): 采取 措施 解除 危机 。 对 于 重度 与 
情 需 要 企业 及 时 介入 处 理 ， 以 免 熏 论 进一步 扩散 ， 从 
而 转化 为 特 重 舆情 。 此 时 企业 可 以 衡量 自身 资源 和 危 
机 处 理 能 力 , 在 不 损害 当前 企业 利益 前 提 下 整合 资源 ， 
避免 危机 扩大 恶化 。 

B RCH): 抑制 与 情 信息 进一步 扩散 。 严 密 
监测 危机 信息 状态 和 与 论 导 向 , 适当 引导 与 论 ; 同时 
启动 预案 , 确保 事件 向 有 利 方向 发 展 。 

C 级 ( 轻 度 兵 情 ): 排除 干扰 信息 , 积极 应 对 。 对 企 
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业 相 关 部 门 提出 相应 改进 
时 跟 进 。 

D 级 (需要 关注 ): 做 好 日 常 监测 。 对 于 与 情 类 别 

行 初 判 , 正面 与 情 收 录 到 企业 创新 知识 库 中 ,负面 
和 备案 ,做 到 防 患 未 然 ， 居 安 
思 危 。 

P 级 (信息 反馈 ): 作为 反馈 建议 。 由 于 大 多 P 级 信 
息 不 带 过 多 感情 色彩 或 以 正面 信息 为 主 , 企业 可 参考 
反馈 信息 创新 产品 、 加 强 管理 以 及 服务 升级 , 为 企业 
发 展 提供 新 的 思路 和 契机 。 
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An Early Warning Algorithm for Public Opinion of Safety Emergency 


Tian Shihai Lyu Deli 
(School of Management, Harbin University of Science and Technology, Harbin 150040, China) 


Abstract: [Objective] This study proposes a new early warning model to track the public sentiment online, aiming to 
improve transparency and responding speed of the safety emergencies. [Methods] We used the modified LSA-SVM 
algorithm to build an early warning model, which retrieved public opinion data by meta search. [Results] We examined 
the new model with three different incidents, and found it was practical and fast. The precision rate was 85.7596 when 
the semantic dimension was kept at 10. [Limitations] This method was more effective for the safety incidents drawing 
public attention and discussion. [Conclusions] The proposed algorithm helps us build an early warning system for 
public opinion, which provides suggestions to related companies and government organizations. 
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